這系列文章從過去的一個小專案 —— auto-complete 開始,重新 pick up ES 的相關概念,從 analyzer、index-mapping 到 search methods;在找優化方法的途中,也更新了這幾年 ES 的新 feature,對 ES 有更深的理解。auto-complete 雖然相比於過去自己的作法已經優化很多,但還是有很多可以改進的地方。
在 auto-compelete 告一段落後,開始研究 es 的 Vector-search 功能,這一部分也要非常感謝在 IT Home Hello World Conference 開 ES workshop 的喬叔,清楚地講解讓我對 ES 的 Vector Search 有很清楚的理解,少了很多自我探索;如果你也有去那場 workshop,應該有發現用的資料是一樣的(TMDB),框架也蠻類似(但沒有抄 ~
最後稍微研究了是認為身為 data engineer (DE) 必須要知道的 ETL 工具 —— Ingest Pipeline,這部分的使用跟我預期的差不多,ES 讓 ETL 管線也被放在 ES 的叢集內解決,整體非常單純易懂(除了非常 painful 的 painless 語言外 XD ),也算是增加作為 DE 的 Toolset。
過程中有些是邊 K 官方說明、邊實驗、改改寫寫,有很多不完整、不通順的地方,如果你有一路看過來,真的非常非常感謝,也非常非常不好意思,一定有很多不是很清楚和寫錯的地方(尤其是錯字,但當下我真的沒有心力改)。
最後,還要感謝推坑我挑戰 30 天寫文章的 Alston,雖然這系列因為一些原因沒有辦法取得完賽資格,但這個經驗真的很值得。
然後~
我~
終於~
寫完拉~~~
感謝這 30 天自己的努力!!!